GAN(Generative adversarial network)

Discriminator 신경망과 Generator 신경망(Generative Neural Network)으로 이루어어져, generator의 output이 distciminator를 속일 수 있을 만한 output을 만들 때까지 학습된 신경망.

이 때, G(Generator)가 생성한 데이터 중 D(Discriminator)가 real인지, synthetic하게 만들어 진 데이터인지 판단하지 못하는 경계의 값에 있을 때, 최적 솔루션으로 간주한다.

550

G: training data의 distribution을 파악해 noise를 섞어 새로운 synthetic data를 만들어낸다.
- 단순히 여러 이미지를 합성, 평균 내 새로운 이미지를 만든다면 이는 unbiased estimator가 되므로 error는 적어진다.
- 하지만, 이는 곧 단순히 평균 낸 이미지이므로 원하고자 하는 이미지에 벗어날 수 있기에 데이터 샘플의 복잡한 패턴과 다양성을 유지하는 새로운 데이터를 만들어내야 한다.
D: training data를 이용해 해당 이미지가 real인지, synthetic 이미지인지 파악한다.
- 학습이 진행되면서 real한 이미지를 더 정확히 파악할 수 있다.
- 이렇게 학습된 D를 속일 수 있을 정도의 synthetic data를 만들어내는 G를 학습시켜내는 것이 목표가 된다.

Loss function

D가 G에 대한 Error는 제일 커지고, D자체의 Error는 제일 작아지는 것을 Loss로 활용한다. 이는 곧 Cross Entropy의 형태로 나타난다.

L = G min D max {E_{x} [lo g D (x)] + E_{z} [lo g (1 - D (G (z)))]}

$z$ : Random number, random한 noise로 이미지를 생성해낸다.
$x$ : Train data: real data를 의미한다.
$D (G (z)) = 1$ : discriminator에게 real하다고 속일 때가 되며, 이 때 Loss가 제일 작아지는 $G$ 가 된다.
동시에, $D (x) = 1$ 로 최적의 이미지를 판단할 수 있는 $D$ 가 될 때여야 한다.

$D$ 를 Max 시키는 과정은, Gradient Descent가 아닌 Gradient Ascent를 통해 $D$ 가 최대한 잘 분간 하도록 $L$ 을 Back Propagation에 이용하는 과정으로 학습된다.

반대로 $G$ 에 대해서는, $L$ 이 작아지도록 Gradient Descent를 통해 학습한다.

Optimal D(discriminator)

최적의 discriminator가 되는 기준.

G min D max {E_{x} [lo g D (x)] + E_{z} [lo g (1 - D (G (z)))]}

= G min D max {E_{y \sim P (y ∣ real)} [lo g D (y)] + E_{y \sim P (y ∣ fake)} [lo g (1 - D (G (y)))]}

= G min D max {\int (P (y ∣ real) lo g D (y) + P (y ∣ fake) lo g (1 - D (G (y))) d y}

= G min D max {\int (p (y) lo g D (y) + q (y) lo g (1 - D (G (y))) d y}

위의 Loss function의 변형에 대하여, optimal discriminator $\hat{D}$ 는

\hat{D} = ar g D max \int (p (y) lo g D (y) + q (y) lo g (1 - D (G (y))) d y

intelgral속 적분 식을 Lagrangier function( $L$ )은, 곧 optimazation 대상이 된다.

\frac{\partial L}{\partial D ( y )} = \frac{p ( y )}{D ( y )} - \frac{q ( y )}{1 - D ( y )} = 0

D (y) (p (y) + q (y)) = p (y)

\hat{D (y)} = \frac{P ( y ∣ real )}{P ( y ∣ real ) + P ( y ∣ fake )}

$P (y ∣ fake) >> P (y ∣ real)$ : $\hat{D (y)} \to 0$ 가 되면서, $y$ 가 systhetic하다고 판정할 확률이 오른다.
$P (y ∣ real) >> P (y ∣ fake)$ : $\hat{D (y)} \to 1$ 가 되면서, $y$ 가 real하다고 판정할 확률이 오른다.

이는, 학습을 통해 $P (y ∣ fake) \to P (y ∣ real)$ 하게 되면서 $\hat{D} (y) = 0.5$ 로 수렴하게 되었을 때, 실제 데이터와 생성 데이터간의 차이를 구별할 수 없게 되면서 성공적으로 학습되었음을 의미한다.

gradient ascent 과정을 통해 구한다.

Optimal G(generator)

최적의 Generator가 되는 기준.

G min {\int (p (y) lo g \hat{D (y)} + q (y) lo g (1 - \hat{D (y))} d y}

: 최적의 discriminator가 만들어졌다고 가정하고, 그 discriminator에 대하여 최적의 Generator를 찾는다.

\int (p (y) lo g \frac{p ( y )}{p ( y ) + q ( y )}) d y + \int (q (y) lo g (1 - \frac{p ( y )}{p ( y ) + q ( y )}) d y

= - lo g 4 + \int (p (y) lo g \frac{p ( y )}{p ( y ) + q ( y )}) d y + \int (q (y) lo g (1 - \frac{p ( y )}{p ( y ) + q ( y )}) d y + lo g 4

= - lo g 4 + \int (p (y) lo g \frac{p ( y )}{\frac{p ( y ) + q ( y )}{2}}) d y + \int (q (y) lo g (1 - \frac{p ( y )}{\frac{p ( y ) + q ( y )}{2}}) d y

위의 식은, $lo g 2 = \int p (y) lo g 2 d y$ 임을 이용한 것이며, 마지막 식은 결국 Cross Entropy의 꼴로 나타나고, 이는 곧 KL divergence를 의미한다.

= lo g 4 + KL (p ∣∣ \frac{p + q}{2}) + KL (q ∣∣ \frac{p + q}{2})

따라서, 위의 식이 제일 $min$ 되려면 $p = \frac{p + q}{2}$ , $q = \frac{p + q}{2}$ 일 때 KL Divergence $= 0$ 이 된다.
이는 $P (y ∣ real) = P (y ∣ fake)$ 일 때, 최적의 Generator가 됨을 의미하는데, Synthetic Data를 거의 Real data처럼 만들어 Disciriminator를 속일 수 있는 것을 의미한다.

즉, 마지막 그림에서처럼 $\hat{D (G (y))} = 0.5$ 로 수렴하게 되는 상황이 되어 Systhetic과 Real을 구분하지 못하는 상황이다.

min이 되어야 하는 것이므로, Discriminator와 달리 Gradient Descent를 이용한다.